Data Mining (página 2)

Enviado por IVÁN JOSÉ TURMERO ASTROS

Partes: 1, 2

Analizar la data e información que emana
periódicamente de la base de datos, "first hand",
cruzándola con aquella que generen los estudios de
mercados, para conformar alertas e informes
oportunos.

Elaborar los Informes o reportes que sean acordados
por la gerencia de mercadeo, o aquellos que le sean
solicitados, de acuerdo al calendario aprobado, con el
propósito de informar a las gerencias oportunamente y
documentar el plan operativo anual.

Distribuir los reportes a los usuarios de acuerdo a
las necesidades, usos y fines de cada uno.

Glosario de
Términos

Para poder tener un entendimiento claro de la
información contenida en este informe, a
continuación se presentan una serie de definiciones
relacionadas con el tema investigado.

Algoritmos genéticos: Técnicas
de optimización que usan procesos tales como
combinación genética, mutación y
selección natural en un diseño basado en los
conceptos de evolución natural.
Análisis de series de tiempo
(time-series): Análisis de una secuencia de
medidas hechas a intervalos específicos. El tiempo es
usualmente la dimensión dominante de los
datos.
Análisis prospectivo de datos:
Análisis de datos que predice futuras tendencias,
comportamientos o eventos basado en datos
históricos.
Análisis exploratorio de datos: Uso de
técnicas estadísticas tanto gráficas
como descriptivas para aprender acerca de la estructura de un
conjunto de datos.
Análisis retrospectivo de datos:
Análisis de datos que provee una visión de las
tendencias, comportamientos o eventos basado en datos
históricos.
Árbol de decisión: Estructura
en forma de árbol que representa un conjunto de
decisiones. Estas decisiones generan reglas para la
clasificación de un conjunto de datos. Ver
CART y CHAID.
Base de datos multidimensional: Base de datos
diseñada para procesamiento analítico on-line
(OLAP). Estructurada como un híper cubo con
un eje por dimensión.
CART Árboles de clasificación y
regresión: Una técnica de árbol
de decisión usada para la
clasificación de un conjunto da datos. Provee
un conjunto de reglas que se pueden aplicar a un nuevo (sin
clasificar) conjunto de datos para predecir cuáles
registros darán un cierto resultado. Segmenta un
conjunto de datos creando 2 divisiones. Requiere menos
preparación de datos que CHAID.
CHAID Detección de interacción
automática de Chi cuadrado: Una técnica de
árbol de decisión usada para la
clasificación de un conjunto da datos. Provee
un conjunto de reglas que se pueden aplicar a un nuevo (sin
clasificar) conjunto de datos para predecir cuáles
registros darán un cierto resultado. Segmenta un
conjunto de datos utilizando tests de Chi cuadrado para crear
múltiples divisiones. Antecede, y requiere más
preparación de datos, que CART.
Clasificación: Proceso de dividir un
conjunto de datos en grupos mutuamente excluyentes de tal
manera que cada miembro de un grupo esté lo
"más cercano" posible a otro, y grupos diferentes
estén lo "más lejos" posible uno del otro,
donde la distancia está medida con respecto a
variable(s) específica(s) las cuales se están
tratando de predecir. Por ejemplo, un problema típico
de clasificación es el de dividir una base de datos de
compañías en grupos que son lo más
homogéneos posibles con respecto a variables como
"posibilidades de crédito" con valores tales como
"Bueno" y "Malo".
Clustering (agrupamiento): Proceso de dividir
un conjunto de datos en grupos mutuamente excluyentes de tal
manera que cada miembro de un grupo esté lo
"más cercano" posible a otro, y grupos diferentes
estén lo "más lejos" posible uno del otro,
donde la distancia está medida con respecto a todas
las variables disponibles.
Computadoras con multiprocesadores: Una
computadora que incluye múltiples procesadores
conectados por una red. Ver procesamiento
paralelo.
Data Cleansing: Proceso de asegurar que todos
los valores en un conjunto de datos sean consistentes y
correctamente registrados.
Data Mining: La extracción de
información predecible escondida en grandes bases de
datos.
Data Warehouse: Sistema para el
almacenamiento y distribución de cantidades masivas de
datos
Datos anormales: Datos que resultan de
errores (por ej.: errores en el tipiado durante la carga) o
que representan eventos inusuales.
Dimensión: En una base de datos
relacional o plana, cada campo en un registro representa una
dimensión. En una base de datos
multidimensional, una dimensión es un conjunto de
entidades similares; por ejemplo: una base de datos
multidimensional de ventas podría incluir las
dimensiones Producto, Tiempo y Ciudad.
Modelo analítico: Una estructura y
proceso para analizar un conjunto de datos. Por ejemplo, un
árbol de decisión es un modelo para la
clasificación de un conjunto de
datos
Modelo lineal: Un modelo
analítico que asume relaciones lineales entre una
variable seleccionada (dependiente) y sus preeditores
(variables independientes).
Modelo no lineal: Un modelo
analítico que no asume una relación lineal
en los coeficientes de las variables que son
estudiadas.
Modelo predictivo: Estructura y proceso para
predecir valores de variables especificadas en un conjunto de
datos.
Navegación de datos: Proceso de
visualizar diferentes dimensiones, "fetas" y niveles de una
base de datos multidimensional. Ver
OLAP.
OLAP Procesamiento analítico on-line (On
Line Analitic prossesing): Se refiere a aplicaciones de
bases de datos orientadas a array que permite a los usuarios
ver, navegar, manipular y analizar bases de datos
multidimensionales.
Outlier: Un item de datos cuyo valor cae
fuera de los límites que encierran a la mayoría
del resto de los valores correspondientes de la muestra.
Puede indicar datos anormales. Deberían ser
examinados detenidamente; pueden dar importante
información.
Procesamiento paralelo: Uso coordinado de
múltiples procesadores para realizar tareas
computacionales. El procesamiento paralelo puede ocurrir en
una computadora con múltiples procesadores o
en una red de estaciones de trabajo o PCs.
RAID: Formación redundante de discos
baratos (Redundant Array of inexpensive disks).
Tecnología para el almacenamiento paralelo eficiente
de datos en sistemas de computadoras de alto
rendimiento.
Regresión lineal: Técnica
estadística utilizada para encontrar la mejor
relación lineal que encaja entre una variable
seleccionada (dependiente) y sus predicados (variables
independientes).
Regresión logística: Una
regresión lineal que predice las proporciones de una
variable seleccionada categórica, tal como Tipo de
Consumidor, en una población.
Vecino más cercano: Técnica que
clasifica cada registro en un conjunto de datos basado en una
combinación de las clases del/de los k
registro (s) más similar/es a él en un conjunto
de datos históricos (donde k 1). Algunas
veces se llama la técnica del vecino(
k-más cercano.
SMP Multiprocesador simétrico (Symmetric
multiprocessor): Tipo de computadora con
multiprocesadores en la cual la memoria es compartida
entre los procesadores